查看原文
其他

中文语义常用词典 | ChineseSemanticKB

刘焕勇 大邓和他的Python
2024-09-09


刘焕勇

- 360人工智能研究院算法专家

- 主页:https://github.com/liuhuanyong

- 博客: 老刘说NLP


ChineseSemanticKB

ChineseSemanticKB,chinese semantic knowledge base, 面向中文处理的12类、百万规模的语义常用词典,包括34万抽象语义库、34万反义语义库、43万同义语义库等,可支持句子扩展、转写、事件抽象与泛化等多种应用场景。


项目介绍

语义知识库是自然语言处理中十分重要的一个基础资源,与学术界追求算法模型不同,工业界的自然语言处理对于底层的词汇知识库、语义知识库等多种资源依赖度很高,具体体现在:
1、具有落地场景的自然语言处理任务都是业务高度相关,一个业务需求刚进去,需要解决的是业务的词汇问题,无基础词库,无项目冷启动;
2、规则和正则启动下的工业级应用,规则的扩展、泛化都需要底层的词汇网络做支撑;
3、目前包括搜索、问答、舆情监控、事件分析等应用,与标签体系的运作关系密切,而这与先验的底层词汇库依赖性很强;
4、自然语言场景越来越关注推理层面,即所谓的“认知”层面,认知背后的各种逻辑关系库,是驱动这一决策的根本途径;
5、当前,面向中文开源词库的工作存在少量、分散的状态,无论从规模,还是质量,都需要进一步聚合;
因此,我从过往的开源工作中进一步抽离和整理,形成了中文处理的12类、百万规模的语义常用词典,包括34万抽象语义库、34万反义语义库、43万同义语义库等,用于相关下游任务。

项目放于dict当中,可直接下载,不建议二次建库共享,尊重开源。


词库的类别

词库类型词库规模词库举例词库应用
抽象关系库346,048座椅,抽象,家具事件抽象与泛化,人民币贬值到货币贬值,再到美元贬值,可支持查询扩展、推荐等任务
反义关系库34,380开心@苦恼可用于句子改写,开心改苦恼,支持数据增强,句子生成
同义关系库424,826开心@高兴可用于查询扩展、数据增强,也可结合抽象关系库完成推荐等任务
简称关系库136,081北京大学@北大可用于句子标准化、句子改写、实体消歧等任务
程度副词222极其,2.0可用于情感强度计算,带情感色彩的句子生成
否定词586不,无,没有可用于情感计算等任务
节日时间词54春节、五四节可用于时间词识别等任务
量比词7占比、环比、同比可用于金融领域指标类数据提取任务
数量介词24大约、达到、超过可用于金融事件抽象或主干化的搭配词处理任务
停用词3,861?、的、着常规的文本特征提取等任务
修饰副词222所、有所可结合程度副词完成情感强度计算等任务
情态词77肯定、应该、大概可用于句子主观性计算、舆情与可信度计算

总结

1、本项目开源了一个目前可用于事件处理以及工业舆情的12类语义词库,总规模数目一百余万;
2、本项目开源的34万抽象语义库、34万反义语义库、43万同义语义库,在作者的实际工作中【事件处理、事理抽取、事件推理】等有重要用途;
3、中文常用语义常用词典,均来源于公开文本+人工整理+机器抽取形成,其中若有质量不高之处,可积极批评指正;
4、中文开源事业还是要坚持做下去,尽可能地缩短自然语言处理学术界和工业界之间的鸿沟。




精选文章

管理世界 | 使用文本分析词构建并测量短视主义

管理世界 | 使用 经营讨论与分析 测量 企业数字化指标

支持开票 | Python实证指标&文本分析

推荐 | 社科(经管)文本分析快速指南

视频分享 | 文本分析在经管研究中的应用

从符号到嵌入:计算社会科学的两种文本表示

资料 | 量化历史学与经济学研究

长期征稿 | 欢迎各位前来投稿

17G数据集 | 深交所企业社会责任报告

70G数据集 | 上市公司定期报告数据集

27G数据集 | 使用Python对27G招股说明书进行文本分析

百度指数 | 使用qdata采集百度指数

Maigret库 | 查询某用户名在各平台网站的使用情况

MS | 使用网络算法识别创新的颠覆性与否

认知的测量 | 向量距离vs语义投影

Wordify | 发现和区分消费者词汇的工具

Asent库 | 英文文本数据情感分析

PNAS | 文本网络分析&文化桥梁Python代码实现

BERTopic库 | 使用预训练模型做话题建模

tomotopy | 速度最快的LDA主题模型

Wow~70G上市公司定期报告数据集

100min视频 | Python文本分析与会计

安装python包出现报错:Microsoft Visual 14.0 or greater is required. 怎么办?

R语言 | 使用posterdown包制作学术会议海报
R语言 | 使用ggsci包绘制sci风格图表
R语言 | 使用word2vec词向量模型

R语言 | 将多个txt汇总到一个csv文件中

继续滑动看下一个
大邓和他的Python
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存